互助问答第31期：固定效应与随机效应选择和面板数据处理

Original 论文导向实证方法学术苑 2021-09-21

样本描述：各位老师好,我的论文采用的是微观面板非平衡数据（合并了3波数据，总观测值6万左右），每波观测之间约有20%的样本不同（约10%的样本流失，10%的新样本补入），因变量是连续变量，核心自变量是虚拟变量。经由列联表分析，发现对重复观测的样本而言，约有8%左右样本的核心控制变量状态（0或1）会在两次观测时间中发生变异。加入协变量后，经过多次模型比较，均发现个体效应不容忽视，固定效应显著优于随机效应和混和估计。关于模型方法选择和样本处理方面有三个问题请教。

问题1: 由于组内变异不足，固定效应在进行组内离差时是否已经抹去了大部分核心变量的信息，导致结果实际上并不具有代表性和可信度？这种情况下是否只能抛开豪斯曼检验结果而使用随机效应？

答案1:

个体固定效应在你说的情形中确实吸收了核心自变量许多信息，可能导致核心自变量系数估计统计不显著，但这不意味着结果是错误或不可信的。此时用固定效应还是随机效应是需要权衡的。如果用固定效应，回归结果未必如你所想；如果用随机效应，回归结果可能是不一致的——这是更严重的问题，即使结果显著，也不可信。我个人的建议是：继续使用固定效应模型，然后多看一些异质性。虽然平均意义上系数不显著，但可能对某些特定群体是显著的。

问题2: 由于这一核心虚拟变量可能存在一定样本自选择现象，如果使用倾向值得分匹配，如何结合面板数据的特征？（PS:在理论上，由于存在“前处理效应”，因而不能使用did或did-psm）

答案2:

不知道你的核心虚拟变量是怎样的变量。如果该变量是诸如“是否有工作”这种可能因时而异的变量，那便无法在面板数据架构下应用匹配方法（如果非要用匹配法，只能一年一年分开做）。如果核心虚拟变量是事先确定了的变量（比如在政策评估领域常见的“是否受到某项政策的影响”），就可能可以利用DID Matching的方法去做（也就是常说的PSM-DID）。PS：没看懂你括号里的PS说明。

问题3: 是否有必要强行构造平衡面板？（由于是微观抽样数据，理论上强行构建平衡面板似乎会造成推断有偏，但所有参考文献均是使用平衡面板。）

答案3:

个体固定效应模型并不要求面板数据是平衡面板，只要所有个体至少有两期数据即可。非平衡面板与平衡面板数据各有优劣，前者样本内生选择问题没有后者严重，但后者的跨期可比性比前者更好。理论上，当出现面板数据跨期追踪缺失时（attrition），需要检查该缺失是内生的，还是可以近似看做随机，如果是后者，那么构造平衡面板自然是最好的。

学术指导：张晓峒老师

本期解答人：中关村大街

编辑：Hollian 知我者杨芳

统筹：芋头易仰楠

技术：知我者

往期回顾

互助问答第30期：工具变量、GARCH模型操作和多项选择效信度

互助问答第29期：控制变量的内生性问题需要解决么？

互助问答第28期：稳健性检验及地区虚拟变量设置

互助问答第27期：面板数据的stata设置问题

张晓峒教授公开课

关于我们